![]() 最佳混合矩陣與使用去相關器於空間音訊處理之技術
专利摘要:
提供一種用以由具有二或多個音訊輸入通道的一音訊輸入信號產生具有二或多個音訊輸出通道的一音訊輸出信號的裝置。該裝置包含一提供者及一信號處理器。該提供者適於提供該音訊輸入信號之第一共變異數性質。該信號處理器適於藉由對二或多個音訊輸入通道中的至少二者應用一混合規則來產生該音訊輸出信號。該信號處理器被配置成基於該音訊輸入信號之第一共變異數性質及基於該音訊輸出信號之第二共變異數性質來確定混合規則,第二共變異數性質與第一共變異數性質不同。 公开号:TW201320059A 申请号:TW101128761 申请日:2012-08-09 公开日:2013-05-16 发明作者:Juha Vilkamo;Tom Baeckstroem;Fabian Kuech;Achim Kuntz 申请人:Fraunhofer Ges Forschung; IPC主号:G10L19-00
专利说明:
最佳混合矩陣與使用去相關器於空間音訊處理之技術 本發明有關於音訊信號處理,且特別是,有關於利用最佳混合矩陣的裝置及方法,此外,還有關於使用去相關器於空間音訊處理。 音訊處理變得越來越重要。在空間音訊的感知處理中,典型的假設是一由揚聲器再現之聲音的空間方面特別是由感知頻帶中的音訊通道之間的能量及時間校準相依性來決定。這建立在當這些特徵透過揚聲器再現時轉換成空間感知的雙耳線索:雙耳音強差、雙耳時間差及雙耳一致性的觀念之上。出於此一構想已有各種不同的空間處理方法出現,包括上混,請參見:[1]C.Faller,“Multiple-Loudspeaker Playback of Stereo Signals”,Journal of theAudio Engineering Society,Vol.54,No.11,pp.1051-1064,June 2006,空間微動雜音,請參見,例如,[2]V.Pulkki,“Spatial Sound Reproduction with Directional Audio Coding”,Journal of the Audio Engineering Society,Vol.55,No.6,pp.503-516,June 2007;及[3]C.Tournery,C.Faller,F.Küch,J.Herre,“Converting Stereo Microphone Signals Directly to MPEG Surround”,128th AES Convention,May 2010;及高效率的立體聲及多通道傳輸,請參見,例如,[4]J.Breebaart,S.van de Par,A.Kohlrausch and E.Schuijers,“Parametric Coding of Stereo Audio”,EURASIP Journal on Applied Signal Processing,Vol.2005,No.9,pp.1305-1322,2005;及[5]J.Herre,K.Kjörling,J.Breebaart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.Rödén,W.Oomen,K.Linzmeier and K.S.Chong,“MPEG Surround-The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding”,Journal of the Audio Engineering Society,Vol.56,No.11,pp.932-955,November 2008. 聽力測試已經證實構想在每一應用中的優勢,請參見,例如,[1,4,5]及,例如,[6]J.Vilkamo,V.Pulkki,“Directional Audio Coding:Virtual Microphone-Based Synthesis and Subjective Evaluation”,Journal of the Audio Engineering Society,Vol.57,No.9,pp.709-724,September 2009。 儘管應用不同,所有這些技術都有相同的核心任務,那就是由一組輸入通道產生能量及相依性被定義成時間與頻率之函數的一組輸出通道,這可以被假定為感知空間音訊處理中的共同的基本任務。例如,在定向音訊編碼(DirAC)的背景下,請參見,例如,[2],源通道通常是一階麥克風信號,它們經由混合、幅度平移及去相關處理而在感知上近似一量測聲場。在上混(參見[1])中,同樣是時間與頻率之函數的立體聲輸入通道適應地分配給一環繞聲設置。 本發明之一項目的在於提供用以由一組輸入通道產生一組具有定義性質之輸出通道的改進構想。本發明之目的由如申請專利範圍第1項所述之裝置,由如申請專利範圍第25項所述之方法及如申請專利範圍第26項所述之電腦程式來解決。 提供一種用以由具有二或更多音訊輸入通道的一音訊輸入信號產生具有二或更多音訊輸出通道的一音訊輸出信號的裝置。該裝置包含一提供者及一信號處理器。該提供者適於提供該音訊輸入信號的第一共變異數性質。該信號處理器適於藉由對二或多個音訊輸入通道中的至少二者應用一混合規則來產生音訊輸出信號。該信號處理器被配置成基於音訊輸入信號的第一共變異數性質及基於音訊輸出信號的第二共變異數性質來確定混合規則,第二共變異數性質不同第一共變異數性質。 例如,通道能量及時間校準相依性可藉由,例如感知頻帶中的一信號共變異數矩陣的實部來表示。在下文中,提出對在此域中處理空間聲音之一般可適用的構想。該構想包含一適應性混合解決方案,以藉由輸入通道中之獨立分量的最佳運用來達成特定的目標共變異數性質(第二共變異數性質),例如,一特定的目標共變異數矩陣。在一實施例中,可提供一種裝置,當目標沒有達到時,注入必要量的去相關聲能。此構想的功能強健,且可應用於許多用例。目標共變異數性質例如可由一使用者來提供。例如,依據一實施例的一裝置可具有使得一使用者可輸入共變異數性質之裝置。 依據一實施例,該提供者可適於提供第一共變異數性質,其中該等第一共變異數性質對第一時頻段具有第一狀態,且其中該等第一共變異數性質對不同於第一時頻段的第二時頻段具有一不同於第一狀態的第二狀態。該提供者並不一定需要執行分析以獲得共變異數性質,但是可由一儲存器、一使用者輸入或由類似來源提供此資料。 在另一實施例中,該信號處理器可適於基於第二共變異數性質來確定混合規則,其中該等第二共變異數性質對第三時頻段具有第三狀態,且其中該等第二共變異數性質對不同於第三時頻段的第四時頻段具有不同於第三狀態的第四狀態。 依據另一實施例,該信號處理器適於藉由應用混合規則來產生音頻輸出信號,使得二或多個音訊輸出通道中的每一者依賴於二或多個音訊輸入通道中的每一者。 在另一實施例中,該信號處理器可適於確定混合規則,使得一誤差量度被最小化。一誤差量度可以是,例如一參考輸出信號與一實際輸出信號之間的一絕對差信號。 在一實施例中,一誤差量度可以是,例如一取決於下式的量度:∥yref-y∥2其中y是音訊輸出信號,其中yref=Qx,其中x指定音訊輸入信號,且其中Q是一映射矩陣,其可能是特定應用,如此yref指定一參考目標音訊輸出信號。 依據又一實施例,該信號處理器可適於確定混合規則,使得e=E[∥y ref-y∥2]被最小化,其中E是一預期運算元,其中y ref是一定義的參考點,且其中y是音訊輸出信號。 依據再一實施例,該信號處理器可被配置成藉由確定第二共變異數性質來確定混合規則,其中該信號處理器可被配置成基於第一共變異數性質來確定第二共變異數性質。 依據又一實施例,該信號處理器可適於確定一混合矩陣作為混合規則,其中該信號處理器可適於基於第一共變異數性質及基於第二共變異數性質來確定混合矩陣。 在另一實施例中,該提供者可適於藉由確定音訊輸入信號之第一共變異數矩陣來分析第一共變異數性質,且其中該信號處理器可被配置成基於作為第二共變異數性質的音訊輸出信號之第二共變異數矩陣來確定混合規則。 依據另一實施例,該提供者可適於確定第一共變異數矩陣,使得第一共變異數矩陣之每一對角線值可指示音訊輸入通道中的一者之能量,且使得第一共變異數矩陣的不是一對角線值的每一個值可指示第一音訊輸入通道與一不同的第二音訊輸入通道之間的一通道間相關性。 依據又一實施例,該信號處理器可被配置成基於第二共變異數矩陣來確定混合規則,其中第二共變異數矩陣的每一個對角線值可指示音訊輸出通道中之一者的能量,且其中第二共變異數矩陣的不是一對角線值的每一個值可指示第一音訊輸出通道與第二音訊輸出通道之間的一通道間相關性。 依據另一實施例,該信號處理器可適於確定混合矩陣,使得: 使得 其中M是混合矩陣,其中C x是第一共變異數矩陣,其中C y是第二共變異數矩陣,其中是第一分解矩陣K x的第一轉置矩陣,其中是第二分解矩陣K y之第二轉置矩陣,其中是第一分解矩陣K x的反矩陣,且其中P是第一單位矩陣。 在又一實施例中,該信號處理器可適於確定混合矩陣,使得 其中P=VU T其中U T是第二單位矩陣U之第三轉置矩陣,其中V是第三單位矩陣,其中 其中Q T是下混矩陣Q之第四轉置矩陣,其中V T是第三單位矩陣V之第五轉置矩陣,且其中S是一對角矩陣。 依據另一實施例,該信號處理器適於確定一混合矩陣作為混合規則,其中該信號處理器適於基於第一共變異數性質及基於第二共變異數性質來確定混合矩陣,其中該提供者適於藉由確定音訊輸入信號之第一共變異數矩陣來提供或分析第一共變異數性質,且其中該信號處理器被配置成基於作為第二共變異數性質的音訊輸出信號之第二共變異數矩陣來確定混合規則,其中該信號處理器被配置成當對角矩陣S x的值為零或小於一預定閾值時,修改該對角矩陣S x之至少某些對角線值,使得該等值大於或等於閾值,其中該信號處理器適於基於對角矩陣來確定混合矩陣。然而,該閾值不一定是預定的,而是也可取決於一函數。 在又一實施例中,該信號處理器被配置成修改對角矩陣S x之至少某些對角線值,其中,且其中,其中C x是第一共變異數矩陣,其中S x是對角矩陣,其中U x是第二矩陣,是第三轉置矩陣,且其中是第五矩陣K x之第四轉置矩陣。矩陣V x及U x可以是單位矩陣。 依據另一實施例,該信號處理器適於藉由對二或多個音訊輸入通道中的至少二者應用混合規則以獲得一中間信號,及藉由將一殘差信號r加入中間信號以獲得音訊輸出信號來產生音訊輸出信號。 在另一實施例中,該信號處理器適於基於一對角增益矩陣G及一中間矩陣來確定混合矩陣,使得,其中對角增益矩陣具有以下值: 其中其中M’是混合矩陣,其中G是對角增益矩陣,且其中是中間矩陣,其中C y是第二共變異數矩陣,且其中是矩陣之第五轉置矩陣。 圖式簡單說明 將參照圖式來說明本發明之較佳實施例,其中:圖1繪示依據一實施例,用以由具有二或多個音訊輸入通道的一音訊輸入信號產生具有二或多個音訊輸出通道的一音訊輸出信號的一裝置,圖2描繪依據一實施例的一信號處理器,圖3繪示應用向量L及R之一線性組合以達成一新向量集R’及L’的一範例,圖4繪示依據另一實施例的一裝置的一方塊圖,圖5繪示一圖式,其描繪依據一實施例的立體聲重合麥克風信號到MPEG環繞聲編碼器,圖6描繪依據與一SAM至MPS編碼器的下混ICC/位準校正有關的另一實施例的一裝置,圖7描繪依據用於小間距麥克風陣列之增強的一實施例的一裝置,圖8繪示依據另一實施例,用於立體聲或多通道播放中的空間聲音品質之盲增強的一裝置,圖9繪示窄揚聲器設置之增強,圖10描繪基於一B格式麥克風信號提供改良定向音訊編碼渲染的一實施例,圖11繪示顯示一實施例之數值範例的表1,以及圖12描繪列表1,列表1顯示依據一實施例的一方法之一Matlab實施。 圖1繪示依據一實施例,用以由具有二或多個音訊輸入通道的一音訊輸入信號產生具有二或多個音訊輸出通道的一音訊輸出信號的一裝置。該裝置包含一提供者110及一信號處理器120。提供者110適於接收具有二或多個音訊輸入通道的音訊輸入信號。而且,提供者110適於分析音訊輸入信號之第一共變異數性質。此外,提供者110適於將第一共變異數性質提供給信號處理器120。再者,信號處理器120適於接收音訊輸入信號。並且,信號處理器120適於藉由在音訊輸入信號之二或多個輸入通道的至少二者上應用一混合規則來產生音訊輸出信號。信號處理器120被配置成基於音訊輸入信號之第一共變異數性質及基於音訊輸出信號之第二共變異數性質來確定混合規則,第二共變異數性質不同於第一共變異數性質。 圖2繪示依據一實施例的一信號處理器。該信號處理器包含一最佳混合矩陣公式化單元210及一混合單元220。最佳混合矩陣公式化單元210使一最佳混合矩陣公式化。為此,最佳混合矩陣公式化單元210使用由例如圖1之實施例之一提供者110接收的一立體聲或多通道頻帶音訊輸入信號之第一共變異數性質230(例如,輸入共變異數性質)。此外,最佳混合矩陣公式化單元210基於第二共變異數性質240,例如一目標共變異數矩陣來確定混合矩陣,這可能是取決於應用的。由最佳混合矩陣公式化單元210公式化的最佳混合矩陣可用作一通道映射矩陣。然後最佳混合矩陣可被提供給混合單元220。混合單元220對立體聲或多通道頻帶輸入應用最佳混合矩陣,以獲得音訊輸出信號的一立體聲或多通道頻帶輸出。音訊輸出信號具有所欲的第二共變異數性質(目標共變異數性質)。 為了更詳細地說明本發明的實施例,引入定義。現在,零平均複輸入及輸出信號xi(t,f)及yj(t,f)被定義,其中t是時間索引,其中f是頻率索引,其中i是輸入通道索引,且其中j是輸出通道索引。此外,音訊輸入信號x及音訊輸出信號y的信號向量被定義: 其中Nx及Ny是輸入及輸出通道的總數。此外,N=max(Ny,Nx)且相等維度的零填充信號被定義: 零填充信號可在公式化中使用,直到導出的解被延伸到不同的向量長度為止。 如上文已經說明的,用以描述一多通道聲音之空間方面的廣泛使用量度是通道能量與時間校準相依性的組合。這些性質含括在如下定義的共變異數矩陣的實部中:C x =E[Re{xx H }] C y =E[Re{yy H }] (3) 在方程式(3)中,且在下文中,E[]是預期運算元,Re{}是實部運算元,且x H及y H是x及y的共軛轉置。預期運算元E[]是一數學運算元。在實際應用中,其被一估計,諸如某一時間間隔的平均取代。在以下部分中,使用「共變異數矩陣」一詞指此一實值定義。C x及C y是對稱且為半正定的,且因此,實數矩陣K x及K y可被定義,使得: 此類分解例如可藉由使用丘列斯基分解(Chelosky Decomposition)或特徵分解來獲得,請參見,例如,[7]Golub,G.H.and Van Loan,C.F.,“Matrix computations”,Johns Hopkins Univ Press,1996. 應指出的是,存在有無限數目的分解滿足方程式(4)。對於任何正交矩陣P x及P y,矩陣K x P x及K y P y也滿足條件,因為 在使用立體聲的情況下,共變異數矩陣通常以通道能量及通道間相關性(ICC)形式給出,例如[1,3,4]中所示。C x的對角線值是通道能量,且二通道之間的ICC為 且對於C y而言,是相應的。括號中的索引表示矩陣列及行。 剩餘的定義是應用確定的映射矩陣Q,它包含哪些輸入通道將用於組成每一輸出通道的信息。利用Q,可定義一參考信號y ref=Qx. (7) 映射矩陣Q可包含通道的維度及縮放、組合及重排序的變化。由於信號的零填充定義,Q在此處是一N×N的正方形矩陣,它可包含零列或行。Q的某些範例是: - 空間增強:Q=I,在輸出應該與輸入最相似的應用中。 - 下混:Q是一下混矩陣。 - 一階麥克風信號的空間合成:Q例如可以是一環繞音場麥克風混合矩陣,這意味著y ref是一組虛擬麥克風信號。 在下文中,用公式表示如何由一信號x產生一信號y,限制條件是y具有應用定義的共變異數矩陣C y。應用也定義一給出用於最佳化的一參考點的映射矩陣Q。輸入信號x具有實測的共變異數矩陣C x。如上所述,因為使用去相關器典型地包含信號品質,提出的執行此一轉換的構想主要是使用一種僅最佳化混合該等通道的構想,且其次在目標未達成時注入去相關能量。 依據這些構想的輸入-輸出關係可被寫作:y=Mx+r (8)其中M是依據主要構想的一實數混合矩陣,且r是依據次要構想的一殘差信號。 在下文中,提出用於共變異數矩陣修改的構想。 首先,依據主要構想的任務藉由僅交混輸入通道來解決。則方程式(8)簡化成y=Mx. (9) 由方程式(3)及(9),得到C y =E[Re{yy H }]=E[Re{Mxx H M T }]=MC x M T . (10) 由方程式(5)及(10)得到 由此得到滿足方程式(10)的M的一組解 這些解的條件是存在。正交矩陣是剩餘的自由參數。 在下文中,描述如何找到提供一最佳矩陣M的一矩陣P。由方程式(12)中的所有M,搜尋一個產生最接近定義參考點y ref,即,使下式最小化的一輸出的矩陣e=E[∥y ref-y∥2] (13a)即,使下式最小化e=E[∥y ref-y∥2]=E[∥Qx-Mx∥2]. (13) 現在,一信號w被定義,使得E[Re{ww H}]=I。w可被選擇成使得x=K x w,由於 則得到Mx=MK x w=K y Pw. (15) 方程式(13)可被寫作e=E[∥Qx-Mx∥2]=E[∥QK x w-K y Pw||2]=E[∥(QK x -K y P)w∥2]=E[w H (QK x -K y P) T (QK x -K y P)w]. (16) 由E[Re{ww H}]=I,可以容易地對一實數對稱矩陣A證明E[w H Aw]=tr(A),此即為矩陣跡數。得到方程式(16)是以下形式:e=tr[(QK x -K y P) T (QK x -K y P)]. (17) 由矩陣跡數,可易於證實tr(A+B)=tr(A)+tr(B) tr(A)=tr(A T ) tr(P T AP)=tr(A). (18) 使用這些性質,方程式(17)是以下形式 只有最後一項視P而定。因此,最佳化問題是 可以容易地證明,對於一非負對角矩陣S及任一正交矩陣P s, 因此,藉由定義奇異值分解,其中S是非負且對角線的,且U及V是正交的,則對於任一正交P,得到 以下等式成立 借此,此P產生的最大值及方程式(13)中的誤差量度的最小值。 依據一實施例的一裝置確定一最佳混合矩陣M,使得一誤差e被最小化。應指出的是,音訊輸入信號及音訊輸出信號的共變異數性質可因不同的時頻段而不同。為此,依據一實施例的一裝置的一提供者適於分析音訊輸入通道的共變異數性質,對於不同的時頻段,它們可能是不同的。此外,依據一實施例的一裝置的信號處理器適於基於音訊輸出信號的第二共變異數性質來確定一混合規則,例如一混合矩陣M,其中第二共變異數性質可能對於不同的時頻段具有不同的值。 由於確定的混合矩陣M應用於音訊輸入信號的每一音訊輸入通道,且由於每一產生的音訊輸出信號的音訊輸出通道因此可以依賴於每一音訊輸入通道,因此,依據一實施例的一裝置的一信號處理器適於藉由應用混合規則來產生音訊輸出信號,使得二或多個音訊輸出通道中的每一者依賴於音訊輸入信號的二或多個音訊輸入通道中的每一者。 依據另一實施例,提議當不存在或不穩定時使用去相關。在上述實施例中,提供一種解決方案來確定一個其中假定存在的最佳混合矩陣。然而,可能並不會總存在或如果x中的某些主要分量非常小,則其反矩陣可能需要非常大的乘數。一種使反矩陣正則化的有效方式是利用奇異值分解。因此,反矩陣是 當非負對角矩陣S x中的某些對角線值為零或非常小時,問題產生。一種使反矩陣穩固正則化的構想於是用較大的值來取代這些值。此程序的結果是,且對應的反矩陣是,且對應的混合矩陣是 此一正則化實際上意味著在混合程序內,x中的某些小主要分量的放大已減少,且因此,它們對輸出信號y的完整性也減小,且目標共變異數C y大體上並沒有達到。 因此,依據一實施例,信號處理器可被配置成修改一對角矩陣S x的至少某些對角線值,其中對角矩陣S x的值為零或小於一閾值(該閾值可能是預定的或可取決於一函數),使得該等值大於或等於該閾值,其中該信號處理器可能適於基於對角矩陣來確定混合矩陣。 依據一實施例,信號處理器可被配置成修改對角矩陣S x的至少某些對角線值,其中K x=U x S x V x T,且其中C x=,其中C x是第一共變異數矩陣,其中S x是對角矩陣,其中U x是第二矩陣,是第三轉置矩陣,且其中是第五矩陣K x的第四轉置矩陣。 一信號分量的上述損耗可完全用一殘差信號r來補償。原始的輸入-輸出關係將用正則的反矩陣來詳細描述。 現在,一加性分量c被定義,使得得到,而不是。除此之外,一獨立信號w’被定義,使得E[Re{w ' w ' H }]=I且 可以容易地證明,一信號 具有共變異數C y。用於補償正則化的殘差信號則為r=K y PV x c. (28) 由方程式(27)及(28)可得到 由於c已經被定義為一隨機信號,則得出r的相關性質是其共變異數矩陣。因此,與被處理成具有共變異數C r的x無關的任一信號使用作為在利用所述正則化的情況下理想化地重組目標共變異數矩陣C y的一殘差信號。此一殘差信號使用去相關器及提出的通道混合方法可容易地被產生。 解析找到去相關能量之量與小信號分量放大之間的最佳平衡並不是簡單的。這是因為它取決於特定應用因素,諸如輸入信號之統計性質的穩定性、應用的輸入信號分析視窗及輸入信號的SNR。然而,調整一試探函數來完成此一平衡是相當簡單而沒有明顯缺點的,它在下文所提供的示範編碼中完成。 據此,依據一實施例的一裝置的信號處理器可適於藉由對二或多個音訊輸入信號中的至少二者應用混合規則以獲得一中間信號,並藉由向中間信號中加入一殘差信號r以獲得音訊輸出信號來產生音訊輸出信號。 已經證明,當K x的反矩陣正則化被應用時,整體輸出中遺漏的信號分量可用具有共變異數C r的一殘差信號r完全補充。藉由這些手段,可保證目標共變異數C y一直都能實現。在下文中,提出一種產生一對應的殘差信號r的方式。它包含以下步驟: 1.產生與輸出通道數量相同的一組信號。信號y ref=Qx可被利用,因為它具有與輸出信號同樣數量的通道,且每一輸出信號包含對該特定通道適合的一信號。 2.將此一信號去相關。有許多去相關的方式,包括全通濾波器、突發雜訊的卷積運算及頻域中的偽隨機延遲。 3.量測(或假定)去相關信號的共變異數矩陣。量測是最簡單且最穩固的,但是由於信號來自去相關器,可假定它們是非相干的。於是,僅能量測量將是足夠的。 4.應用提出的方法來產生一混合矩陣,當應用於去相關信號時,產生具有共變異數矩陣C r的一輸出信號。此處使用一映射矩陣Q=I,因為希望最低限度地影響信號內容。 5.利用此混合矩陣來處理來自去相關器的信號,並將其饋送至輸出信號,以補充信號分量的缺失。由此達到目標C y。 在一替代實施例中,去相關通道在公式表示最佳混合矩陣之前被附加至(至少一)輸入信號。在此情況下,輸入及輸出是同一維度,且假定輸入信號的獨立信號分量與輸入通道數量相同,則無需利用一殘差信號r。當去相關器以此方式來使用時,去相關器的使用對提出的構想是「無形的」,因為去相關通道是與其他相同的輸入通道。 如果使用去相關器是不符期望的,至少目標通道能量可藉由乘算的列來實現,使得 其中G是具有以下值的一對角增益矩陣: 其中 在許多應用中,輸入及輸出通道的數目是不同的。如方程式(2)中所述,對具有較小維度的信號應用零填充,以使其與具有較高維度的信號具有相同的維度。零填充意味因所產生的M中的某些列或行對應於具有定義零能量之通道的計算成本。在數學上,等效於首先使用零填充且最終將M裁剪成相應的Ny×Nx維,藉由引入本身是補零成Ny×Nx維之一單位矩陣的矩陣Λ可減少成本,例如, 當P被重定義成使得P=VΛU T (33)時,所產生的M是一Ny×Nx混合矩陣,它與零填充情況的M的相關部分是相同的。因此,C x、C y、K x及K y可以是它們的自然維度且映射矩陣Q是Ny×Nx維。 輸入共變異數矩陣總是可分解為,因為它是一實際信號的一半正定量度。然而,可以定義因為它們表示不可能通道的相依性而不能分解的此種目標共變異數矩陣。存有確保可分解性,諸如將負特徵值調整成零並將能量正規化的構想,參見,例如,[8]R.Rebonato,P.Jäckel,“The most general methodology to create a valid correlation matrix for risk management and option pricing purposes”,Journal of Risk,Vol.2,No.2,pp.17-28,2000. 然而,提出之構想的最有意義的使用是僅要求可能的共變異數矩陣。 綜上所述,常見的任務可重新表述如下。首先,得到具有某一共變異數矩陣的一輸入信號。其次,應用定義二參數:目標共變異數矩陣和一規則,哪些輸入通道將用於組成每一輸出通道。對於執行此變換,提議使用以下構想:如圖2中所示,主要構想是目標共變異數藉由使用輸入通道之最佳混合的一解決方案來實現。此構想被視為是主要構想的原因在於其避免使用去相關器,使用去相關器通常損害信號品質。當沒有足夠具有合理能量的獨立分量可用時,次要構想發生。去相關能量被注入以補償這些分量的欠缺。這兩個構想一同提供在任一特定情況下用以執行穩固的共變異數矩陣調整的手段。 提出構想的主要預期應用是在空間微動雜音[2,3]的領域,即與信號共變異數有關的問題因為定向麥克風的實體限制而表現得特別明顯的領域。其他預期用例包括立體聲及多通道增強、氛圍提取、上混及下混。 在上述說明中,定義已經給出,之後是導出該提出的構想。首先,交混解決方案已被提供,其次注入相關聲能的構想已經提出。之後,利用不同數目的輸入與輸出通道的構想說明已被提供,且同時考慮到共變異數矩陣的可分解性。在下文中,提供實際用例,且提出一組數值範例及結論。此外,還提供依據此文件的一具有完整功能的示範Matlab碼。 一立體聲或多通道聲音的感知空間特徵主要由頻帶中的信號的共變異數矩陣來定義。已經提供一種構想用以最佳地且自適應地交混具有特定共變異數性質的一組輸入通道與具有任意可定義的共變異數性質的一組輸出通道。已經提供的另一構想是僅在必要時,即在合理能量的獨立聲音分量不可利用時注入去相關能量。該構想在空間音訊信號處理的領域中有各種各樣的應用。 通道能量及一多通道信號之通道間相依性(或共變異數矩陣)可藉由依賴輸入特徵及所欲的目標特徵僅線性地且隨時間變化地交混該等通道而被控制。此構想可用表示信號的一因數來說明,向量之間的角相當於通道相依性,且向量的幅度等於信號位準。 圖3繪示用以對向量L及R應用一線性組合以實現一新向量集R’及L’的一範例。同樣地,音訊通道位準及它們的相依性可用線性組合來修改。一般的解決方案並不包括向量而是對任一通道數而言最佳的矩陣公式表示。 從圖3中可以看出,立體聲信號的混合矩陣也可以容易地用三角學方法以公式表示。結果與用矩陣數學者相同,但公式是不同的。 如果輸入通道是高度依賴性的,只有在使用去相關器之下才可能實現目標共變異數矩陣。僅在必要時,例如,最佳時引入去相關器的程序也已被提供。 圖4繪示應用混合技術的一實施例的一裝置的一方塊圖。該裝置包含一共變異數矩陣分析模組410,及一信號處理器(圖未示),其中該信號處理器包含一混合矩陣公式模組420及一混合矩陣應用模組430。一立體聲或多通道頻帶輸入的輸入共變異數性質是以一共變異數矩陣分析模組410來分析。共變異數矩陣分析的結果被饋入一混合矩陣公式模組420。 混合矩陣公式模組420根據一目標共變異數矩陣,且亦可能根據一誤差標準而基於共變異數矩陣分析的結果來公式表示一混合矩陣。 混合矩陣公式模組420將混合矩陣饋入一混合矩陣應用模組430。混合矩陣應用模組430將混合矩陣應用在立體聲或多通道頻帶輸入上,以獲得一立體聲或多通道頻帶輸出,該立體聲或多通道頻帶輸出例如具有依賴於目標共變異數矩陣的預定義目標共變異數性質。 綜上所述,該構想的一般目的是在聲音品質方面極度最佳的性質來增強、固定及/或合成空間聲音。目標,例如第二共變異數性質,是由應用來定義。 該構想也可在全頻帶中應用,是在感知上有意義的,特別是在頻帶處理中。 去相關器被使用來改良(降低)通道間相關性。它們可達成此一目的但是易損害總體聲音品質,尤其是在有一瞬態聲音分量的情况下。 提出的構想避免使用去相關器,或在某些應用中,最小程度地使用去相關器。結果是相同的空間特徵,但是並沒有這樣的聲音品質減損。 在其他用法中,該技術可在一SAM至MPS編碼器中使用。 提出的構想已被實施以改良由來自一階立體聲重合麥克風的一信號產生MPEG環繞聲位元流(MPEG=Moving Picture Experts Group(動態影像專家組))的一麥克風技術,參見,例如[3]。程序包括由立體聲信號估計頻帶中聲場的方向及擴散,及產生此MPEG環繞聲位元流,當此MPEG環繞聲位元流在接收器端解碼時,產生感知近似於原始聲場的一聲場。 在圖5中,繪示一圖式,其描繪依據一實施例,一立體聲重合麥克風信號達到MPEG環繞聲編碼器,其利用提出的構想,由特定的麥克風信號來產生MPEG環繞聲下混信號。所有處理都在頻帶中執行。 一空間資料確定模組520適於根據依賴一聲場模型510的方向及擴散資訊,以公式表示包含空間環繞聲資料及下混ICC及/或位準的配置資訊資料。聲場模型本身以對一立體聲麥克風信號的麥克風ICC及位準的分析為基礎。接著,空間資料確定模組520提供目標下混ICC及位準給一混合矩陣公式模組530。此外,空間資料確定模組520可適於以公式表示空間環繞聲資料及下混ICC及位準當作MPEG環繞聲空間旁側資訊。混合矩陣公式模組530接著基於所提供的配置資訊資料,例如,目標下混ICC及位準,以公式表示一混合矩陣,並將矩陣饋入一混合模組540。混合模組540將混合矩陣應用在立體聲麥克風信號上。由此,產生具有目標ICC及位準的一信號。具有目標ICC及位準的信號接著被提供給一核心編碼器550。在一實施例中,模組520、530及540是一信號處理器的子模組。 在由依據圖5的一裝置所實施的程序內,一MPEG環繞立體聲下混必須產生。這包括需要在對聲音品質有最小影響下調整特定立體聲信號之位準及ICC。提出的交混構想為了實現此目的被應用,且[3]中的先前技術的感知優勢是可觀察到的。 圖6繪示依據與一SAM至MPS编码器的下混ICC/位準校正有關的另一實施例的一裝置。一ICC及位準分析在模組602中實施,且聲場模型610依賴於模組602的ICC及位準分析。模組620對應於圖5中的模組520,模組630對應於圖5中的模組530,且模組640對應於圖5中的模組540。這同樣適用於核心編碼器650,它對應於圖5的核心編碼器550。上述構想可納入一SAM至MPS編碼器,以由麥克風信號產生具有完全正確的ICC及位準的MPS下混。上述構想也可適用在毋需MPS的直接SAM至多通道渲染,以提供理想的空間合成,同時將去相關器的使用量最小化。 預計在有關源距離、源定位、穩定性、聆聽舒適度及包圍感上有所改進。 圖7描繪依據一實施例的一裝置用以增強小間距麥克風陣列。一模組705適於對一麥克風輸入信號實施一共變異數矩陣分析,以獲得一麥克風共變異數矩陣。麥克風共變異數矩陣被饋入一混合矩陣公式模組730。此外,麥克風共變異數矩陣用以導出一聲場模型710。聲場模型710可以是以共變異數矩陣以外的其他源為基礎。 基於聲場模型的方向及擴散資訊接著被饋入一目標共變異數矩陣公式模組720,用以產生一目標共變異數矩陣。目標共變異數矩陣公式模組720接著將所產生的目標共變異數矩陣饋入混合矩陣公式模組730。 混合矩陣公式模組730適於產生混合矩陣,並將所產生的混合矩陣饋入一混合矩陣應用模組740。混合矩陣應用模組740適於將混合矩陣應用在麥克風輸入信號上,以獲得具有目標共變異數性質的一麥克風輸出信號。在一實施例中,模組720、730及740是一信號處理器的子模組。 此一裝置遵循DirAC及SAM中的構想,那就是估計原始聲場的方向及擴散,及產生最佳重現估計方向及擴散的輸出。此信號處理程序需要大共變異數矩陣調整,以提供正確的空間影像。提出的構想是對此的解決方案。藉由提出的構想,源距離、源定位,及/或源分離、聆聽舒適度及/或包圍感。 圖8繪示一範例,該範例顯示立體聲或多通道播放中的空間聲音品質之盲增強的一實施例。在模組805中,實施一共變異數矩陣分析,例如,立體聲或多通道內容的一ICC或位準分析。接著,一增強規則應用於增強模組815,例如,以從輸入ICC獲得輸出ICC。一混合矩陣公式模組830基於由模組805實施的共變異數矩陣分析,並基於由應用在增強模組815中實施的增強規則所導出的資訊而產生一混合矩陣。混合矩陣然後在模組840中被應用於立體聲或多通道內容上,以獲得具有目標共變異數性質的調整立體聲或多通道內容。 關於多通道聲音,例如混音或錄音,在空間聲音中找到感知次最適性,特別是就過高的ICC而言,是相當常見的。一典型的結果是有關寬度、包圍感、距離、源分離、源定位及/或源穩定性及聆聽舒適度的品質降低。已經非正式地測試,該構想能夠改進這些具有ICC不必要地高的項目的性質。觀察的改良有寬度、源距離、源定位/分離、包圍感及聽力舒適度。 圖9繪示關於窄揚聲器設置(例如,平板裝置、TV)之增強的另一實施例。提出的構想可能對於作為一種用以改良一揚聲器角過窄(例如,平板裝置)的播放設置中的立體聲品質的工具是有利的。提出的構想將提供: - 再平移特定弧內的源以匹配一較寬的揚聲器設置 - 增加ICC以更佳地匹配一較寬的揚聲器設置 - 提供一執行串音消除的較佳起點,例如,僅在沒有直接產生所欲雙耳線索的方式時使用串音消除。 預計在有關寬度及有關正規的串音消除、聲音品質及穩固性上有改進。 在圖10中所示之另一應用範例中,描繪一實施例,該實施例提供基於一B格式麥克風信號的最佳定向音訊編碼(DirAC)渲染。 圖10之實施例基於以下發現:基於重合麥克風信號的最先進DirAC渲染單元以不必要的程度運用去相關,因此損害音訊品質。例如,若聲場被分析為是擴散的,則全相關應用於所有通道,即便是在一水平聲場(W,X,Y)情況下,一B格式已經提供三個非相干聲音分量。此一效果除了當擴散為零時之外以不同程度存在。 此外,上述使用虛擬麥克風的系統並不保證正確的輸出共變異數矩陣(位準及通道相關),因為虛擬麥克風依賴於源角、揚聲器定位及聲場擴散而不同地實現聲音。 提出的構想解決這兩個問題。存在兩種可選擇方案:提供去相關通道作為額外的輸入通道(如同在下圖中);或使用一去相關器混合構想。 在圖10中,一模組1005實施一共變異數矩陣分析。當以公式表示一目標共變異數矩陣時,一目標共變異數矩陣公式模組1018不僅計入一聲場模型,而且也計入一揚聲器配置。此外,一混合矩陣公式模組1030不僅基於一共變異數矩陣分析及目標共變異數矩陣,而且基於一最佳化標準,例如,由一模組1032提供的一B格式至虛擬麥克風混合矩陣而產生一混合矩陣。聲場模型1010可對應於圖7的聲場模型710。混合矩陣應用模組1040可對應於圖7的混合矩陣應用模組740。 在另一應用範例中,提供一實施例用於通道轉換方法,例如下混中的空間調整。通道轉換,例如,由22.2音訊軌道實現自動5.1下混包括破壞通道。這可包括空間影像的一損耗或改變,而這可利用提出的構想來處理。再者,存在兩種可選擇方案:第一個在具有較高數目的通道域中利用該構想但定義較低數目的遺漏通道為零能量通道;另一個對不同的通道數目直接以公式表示矩陣解。 圖11繪示表1,其提供上述構想的數值範例。當具有共變異數C x的一信號利用一混合矩陣M來處理並以一具有C r的可能的殘差信號補充時,輸出信號具有共變異數C y。儘管這些數值範例是靜態的,提出方法的典型用例是動態的。假定通道順序為L、R、C、Ls、Rs、(Lr,Rr)。 表1顯示一組數值範例,說明提出構想在某些預期用例中的特性。矩陣用列表1中所提供的Matlab碼以公式表示。列表1被繪示於圖12中。 圖12之列表1繪示提出構想的一Matlab實施。Matlab碼用在數值範例中,並提供提出構想的一般功能。 雖然該等矩陣被繪示為靜態的,但在典型應用中,它們在時間及頻率上不同。若具有共變異數C x的一信號以一混合矩陣M來處理並以一具有C r的可能殘差信號來完成,輸出信號具有定義的共變異數C y,則定義上滿足設計標準。 表的第一及第二列說明藉由使信號去相關的立體聲增強的一用例。在第一列中,二通道之間有一小但合理的非相干分量,且因此,完全非相干的輸出僅利用通道混合來實現。在第二列中,輸入相關性非常高,例如,較小的主分量非常小。以極端程度將其放大是不合宜的,且因此,內建限制器開始需要注入相關能量,例如,C r現在為非零值。 第三列顯示立體聲至5.0上混的情況。在此範例中,目標共變異數矩陣被設定成使得立體聲混音的非相干分量被相等且非相干地分配給旁側及後揚聲器,且相干分量處於中央揚聲器位置。由於信號維度增加,所以殘差信號再次是非零的。 第四列顯示簡單的5.0至7.0上混的一例,其中原始的二後向通道被非相干地上混至四個新的後向通道。此範例說明處理集中於需要調整的那些通道。 第五列描繪將一5.0信號下混至立體聲的一例。被動下混,諸如應用一靜態下混矩陣Q,將會放大相干分量優先於非相干分量。此處,目標共變異數矩陣被定義成保存能量,這由所產生的M來實現。 第六及第七列說明重合空間微動雜音的用例。輸入共變異數矩陣C x是令理想的一階重合麥克風處於一理想的擴散場位置的結果。在第六列中,麥克風之間的角度是相同的,且在第七列中,麥克風面向一5.0設置的標準角。在這兩種情況下,C x的大非對角線值說明被動一階重合麥克風技術在理想情況下的固有缺點,最好地表示一擴散場的共變異數矩陣是對角線的,且因此被設定為目標。在這兩種情況下,產生的相關能量與總能量之比正好為2/5。這是因為在一階水平重合麥克風信號中有三個獨立的信號分量可用,且要增加兩個信號分量以達到五通道對角線目標共變異數矩陣。 立體聲及多通道播放中的空間感知已經被確認為特別取決於感知相關頻帶中的信號共變異數矩陣。 已經提出藉由最佳交混該等通道來控制一信號的共變異數矩陣的一構想。用以在當不具備合理能量之足夠獨立信號分量的情況下所必要時注入去相關能量的手段已被提出。 已經發現該構想在其目的上是強健的,且已經確認有各種不同的可能應用。 在下文中,提出如何基於C x 產生C y 的實施例。作為第一範例,立體聲至5.0上混被考慮。關於立體聲至5.0上混,在上混中,Cx是一2x2的矩陣,且Cy是一5x5的矩陣(在此範例中,重低音通道不被考慮)。在每一時頻瓦片中基於Cx產生Cy的步驟,在上混的情況下例如可以是如同下列: 1.估計左及右通道中的環音聲及直達聲能量。環音聲的特徵在於通道之間的一非相干分量,其在二通道中具有相同能量。當環音聲能量部分從總能量,例如相干能量分量中除去時,直達聲能量是餘部,可能在左及右通道中具有不同能量。 2.估計直接分量的一角度。這藉由相反地使用一幅度平移法則來完成。直接分量中有一幅度平移比,且前揚聲器之間只有一個角與之對應。 3.產生一5×5零矩陣作為C y 。 4.使直達聲能量的數量處於對應於分析方向的二最近揚聲器的C y 的對角線位置。這些揚聲器之間的能量分配可藉由幅度平移法則而獲得。幅度平移是相干的,所以將二通道能量的乘積的平方根增至對應的非對角線。 5.將相當於環繞聲分量之能量的能量數量增至對應於通道L、R、Ls及Rs的C y 的對角線。均等分佈是個好選擇。現在得到目標C y 。 作為另一範例,增強被考慮。目的在於藉由將通道間相干向零調整來增加感知品質,諸如寬度或包圍感。此處,提出二個不同的範例,以兩種方式執行增強。對於第一種方式,選擇立體聲增強的一用例,所以Cx及Cy是2x2的矩陣。步驟如下: 1.以公式表示ICC,例如使用所提供的公式(正規化共變異數值在-1與1之間)。 2.用一函數來調整ICC。例如,ICCnew=sign(ICC)*ICC2。這是一個相當小的調整。或ICCnew=sign(ICC)*max(0,abs(ICC)*10-9)。這是一個較大的調整。 3.以公式表示C y ,使得對角線值與C x 中者相同,但是非對角線值用ICCnew以公式表示,公式與步驟1中的公式相同但相反。 在上述情況下,並不需要殘差信號,因為ICC調整被設計成使得系統並不需要小信號分量的大幅放大。 此用例中第二種實施該方法的方式如下。得到一N通道輸入信號,所以C x 及C y 是NxN矩陣。 1.僅藉由將C y 中的對角線值設定成與C x 中相同,並將非對角線值設定成零而由C x 公式表示C y 。 2.在提出方法中啟用增益補償方法而非使用殘差。K x 的反矩陣的正則化負責處理使系統是穩定的。增益補償負責處理使能量被保存。 上述兩種實現增強的方式提供相似的結果。後者更易於在多通道用例中實施。 最後,作為第三範例,直接/擴散性模型,例如定向音訊編碼(DirAC)是被考量的DirAC,且還有空間音訊麥克風(SAM),提供對具有參數方向及擴散的一聲場詮釋。方向是直達聲分量的到達角。擴散是介於0與1之間的一值,該值提供總聲能中有多少量擴散的資訊,例如,假定從各個方向非相干地到達。這是聲場的近似,但是當應用於感知頻帶時,提供聲場的一感知良好表現。已知的聲場方向、擴散及總能量呈現在一時頻瓦片中。這些是使用麥克風共變異數矩陣C x 中的資訊以公式表示。得到一N通道揚聲器設置。產生C y 的步驟與上混相似,如下文: 1.產生一NxN零矩陣作為C y 。 2.使直達聲能量的數量,即(1-diffuseness)*總能量處於對應於分析方向的二最近揚聲器的C y 的對角線位置。這些揚聲器之間的能量分配可藉由幅度平移法則而獲得。幅度平移是相干的,故將二通道能量的乘積的一平方根增至對應的非對角線。 3.將擴散能量的數量,即diffuseness*總能量分配到C y 的對角線。分配完成可使得例如更多能量被分配到揚聲器稀少的那些方向。現在得到目標C y 。 雖然某些層面已就一裝置被描述,但很顯然的是,這些層面也表示對應方法的說明,其中一方塊或裝置對應於一方法步驟或一方法步驟的一特徵。類似地,就一方法步驟而描述的層面也表示一對應裝置之對應方塊或項目或特徵的說明。 視某些實施要求而定,本發明實施例可以硬體或以軟體來實施。該實施可使用一數位儲存媒體來執行,例如其上儲存有電子可讀取控制信號的軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體,該等電子可讀取控制信號與一可程式電腦系統協作(或能夠與之協作),使得各別方法得以執行。 依據本發明的某些實施例包含具有電子可讀取控制信號的一資料載體,該等電子可讀取控制信號能夠與一可程式電腦系統協作,使得本文所述諸方法中的一者得以執行。 一般而言,本發明實施例可被實施為具有一程式碼的一電腦程式產品,當該電腦程式產品在一電腦上運行時,該程式碼可作用以執行該等方法中的一者。該程式碼例如可儲存在一機器可讀取載體上。 其他實施例包含儲存在一機器可讀取載體或一非暫態儲存媒體上,用以執行本文所述諸方法中的一者的電腦程式。 因此,換言之,本發明方法的一實施例是具有一程式碼的一電腦程式,當該電腦程式在一電腦上運行時,該程式碼用以執行本文所述諸方法中的一者。 因此,本發明方法的另一實施例是一資料載體(或一數位儲存媒體,或一電腦可讀取媒體),包含記錄在其上之用以執行本文所述諸方法中之一者的電腦程式。 因此,本發明方法的又一實施例是代表用以執行本文所述諸方法中之一者的電腦程式的一資料流或一序列信號。該資料流或序列信號例如可以被配置成經由一資料通訊連接,例如經由網際網路來傳送。 另一實施例包含一處理裝置,例如電腦,或一可程式邏輯裝置,其被配置成或適應於執行本文所述諸方法中的一者。 另一實施例包含其上安裝有用以執行本文所述諸方法中之一者的電腦程式的一電腦。 在某些實施例中,一可程式邏輯裝置(例如現場可程式閘陣列)可用以執行本文所述方法的某些或全部功能。在某些實施例中,一現場可程式閘陣列可與一微處理器協作以執行本文所述諸方法中之一者。一般而言,該等方法較佳地由任一硬體裝置來執行。 上述實施例僅說明本發明的原理。應理解的是,本文所述之配置的修改及變化及細節對熟於此技者將是顯而易見的。因此,意圖僅受後附專利申請範圍之範圍的限制而不受經由說明及解釋本文實施例而提出的特定細節的限制。 文獻: [1] C. Faller, “Multiple-Loudspeaker Playback of Stereo Signals”, Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006. [2] V. Pulkki, “Spatial Sound Reproduction with Directional Audio Coding”, Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007. [3] C. Tournery, C. Faller, F. Küch, J. Herre, “Converting Stereo Microphone Signals Directly to MPEG Surround”, 128th AES Convention, May 2010. [4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, “Parametric Coding of Stereo Audio,” EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005. [5] J. Herre, K. Kjörling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rödén, W. Oomen, K. Linzmeier and K. S. Chong, “MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding”, Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008. [6] J. Vilkamo, V. Pulkki, “Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation”, Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009. [7] Golub, G.H. and Van Loan, C.F., “Matrix computations”, Johns Hopkins Univ Press, 1996. [8] R. Rebonato, P. Jäckel, “The most general methodology to create a valid correlation matrix for risk management and option pricing purposes”, Journal of Risk, Vol. 2, No. 2, pp. 17-28, 2000. 110‧‧‧提供者 120‧‧‧信號處理器 210‧‧‧最佳混合矩陣公式化單元 220‧‧‧混合單元 230‧‧‧第一共變異數性質 240‧‧‧第二共變異數性質 410‧‧‧共變異數矩陣分析模組 420‧‧‧混合矩陣公式模組 430‧‧‧混合矩陣應用模組 510‧‧‧聲場模型 520‧‧‧空間資料確定模組/模組 530‧‧‧混合矩陣公式模組/模組 540‧‧‧混合模組/模組 550‧‧‧核心編碼器 602‧‧‧模組 610‧‧‧聲場模型 620‧‧‧模組 630‧‧‧模組 640‧‧‧模組 650‧‧‧核心編碼器 705‧‧‧模組 710‧‧‧聲場模型 720‧‧‧目標共變異數矩陣公式模組/模組 730‧‧‧混合矩陣公式模組/模組 740‧‧‧混合矩陣應用模組/模組 805‧‧‧模組 815‧‧‧增強模組 830‧‧‧混合矩陣公式模組 840‧‧‧模組 1005‧‧‧模組 1010‧‧‧聲場模型 1018‧‧‧目標共變異數矩陣公式模組 1030‧‧‧混合矩陣公式模組 1032‧‧‧模組 1040‧‧‧混合矩陣應用模組 圖1繪示依據一實施例,用以由具有二或多個音訊輸入通道的一音訊輸入信號產生具有二或多個音訊輸出通道的一音訊輸出信號的一裝置,圖2描繪依據一實施例的一信號處理器,圖3繪示應用向量L及R之一線性組合以達成一新向量集R’及L’的一範例,圖4繪示依據另一實施例的一裝置的一方塊圖,圖5繪示一圖式,其描繪依據一實施例的立體聲重合麥克風信號到MPEG環繞聲編碼器,圖6描繪依據與一SAM至MPS編碼器的下混ICC/位準校正有關的另一實施例的一裝置,圖7描繪依據用於小間距麥克風陣列之增強的一實施例的一裝置,圖8繪示依據另一實施例,用於立體聲或多通道播放中的空間聲音品質之盲增強的一裝置,圖9繪示窄揚聲器設置之增強,圖10描繪基於一B格式麥克風信號提供改良定向音訊編碼渲染的一實施例,圖11繪示顯示一實施例之數值範例的表1,以及圖12描繪列表1,列表1顯示依據一實施例的一方法之一Matlab實施。 110‧‧‧提供者 120‧‧‧信號處理器
权利要求:
Claims (26) [1] 一種用以由具有二或多個音訊輸入通道的一音訊輸入信號產生具有二或多個音訊輸出通道的一音訊輸出信號的裝置,其包含:一提供者,其用以提供該音訊輸入信號之第一共變異數性質,及一信號處理器,其用以藉由對二或多個音訊輸入通道中之至少二者應用一混合規則來產生該音訊輸出信號,其中該信號處理器被配置成基於該音訊輸入信號之第一共變異數性質及基於該音訊輸出信號之第二共變異數性質來確定混合規則,第二共變異數性質與第一共變異數性質不同。 [2] 如申請專利範圍第1項所述之裝置,其中該提供者適於提供第一共變異數性質,其中第一共變異數性質對一第一時頻段具有第一狀態,且其中第一共變異數性質對一不同於該第一時頻段的第二時頻段具有一不同於該第一第一狀態的第二狀態。 [3] 如申請專利範圍第1項所述之裝置,其中該信號處理器適於基於第二共變異數性質來確定混合規則,其中第二共變異數性質對一第三時頻段具有第三狀態,且其中第二共變異數性質對一不同於該第三時頻段的第四時頻段具有一不同於該第三狀態的第四狀態。 [4] 如申請專利範圍第1項所述之裝置,其中該信號處理器適於藉由應用混合規則來產生音訊輸出信號,使得二或多個音訊輸出通道中的每一者依賴於二或多個音訊輸入通道的每一者。 [5] 如申請專利範圍第1項所述之裝置,其中該信號處理器適於確定混合規則,使得一誤差量度被最小化。 [6] 如申請專利範圍第5項所述之裝置,其中該信號處理器適於確定混合規則,使得該混合規則取決於:∥yref-y∥2其中yref=Qx,其中x是音訊輸入信號,其中Q是一映射矩陣,且其中y是音訊輸出信號。 [7] 如申請專利範圍第1項所述之裝置,其中該信號處理器被配置成藉由確定第二共變異數性質來確定混合規則,其中該信號處理器被配置成基於第一共變異數性質來確定第二共變異數性質。 [8] 如申請專利範圍第1項所述之裝置,其中該信號處理器適於確定一混合矩陣作為混合規則,其中該信號處理器適於基於第一共變異數性質及基於第二共變異數性質來確定該混合矩陣。 [9] 如申請專利範圍第1項所述之裝置,其中該提供者適於藉由確定音訊輸入信號之第一共變異數矩陣來提供第一共變異數性質,且其中該信號處理器被配置成基於作為第二共變異數性質的音訊輸出信號之第二共變異數矩陣來確定混合規則。 [10] 如申請專利範圍第9項所述之裝置,其中該提供者適於確定第一共變異數矩陣,使得第一共變異數矩陣的每一對角線值指示音訊輸入通道中的一者的一能量,且使得第一共變異數矩陣的不是一對角線值的每一個值指示第一音訊輸入通道與一不同的第二音訊輸入通道之間的一通道間相關性。 [11] 如申請專利範圍第9項所述之裝置,其中該信號處理器被配置成基於第二共變異數矩陣來確定混合規則,其中第二共變異數矩陣的每一對角線值指示音訊輸出通道中之一者的一能量,且其中第二共變異數矩陣的不是一對角線值的每一值指示第一音訊輸出通道與第二音訊輸出通道之間的一通道間相關性。 [12] 如申請專利範圍第1項所述之裝置,其中該信號處理器適於確定一混合矩陣作為混合規則,其中該信號處理器適於基於第一共變異數性質及基於第二共變異數性質來確定混合矩陣,其中該提供者適於藉由確定音訊輸入信號之第一共變異數矩陣來提供第一共變異數性質,且其中該信號處理器被配置成基於作為第二共變異數性質的音訊輸出信號之第二共變異數矩陣來確定混合規則,其中該信號處理器適於確定混合矩陣,使得: 使得 其中M是混合矩陣,其中C x是第一共變異數矩陣,其中C y是第二共變異數矩陣,其中是第一分解矩陣K x的第一轉置矩陣,其中是第二分解矩陣Ky的第二轉置矩陣,其中是第一分解矩陣K x的一反矩陣,且其中P是一第一單位矩陣。 [13] 如申請專利範圍第12項所述之裝置,其中該信號處理器適於確定混合矩陣,使得 其中P=VΛU T,其中U T是一第二單位矩陣U的第三轉置矩陣,其中V是一第三單位矩陣,其中Λ是一補零的單位矩陣,其中 其中Q T是映射矩陣Q的一第四轉置矩陣,其中V T是第三單位矩陣V的一第五轉置矩陣,且其中S是一對角矩陣。 [14] 如申請專利範圍第1項所述之裝置,其中該信號處理器適於確定一混合矩陣作為混合規則,其中該信號處理器適於基於第一共變異數性質及基於第二共變異數性質來確定混合矩陣,其中該提供者適於藉由確定音訊輸入信號之第一共變異數矩陣來提供第一共變異數性質,且其中該信號處理器被配置成基於作為第二共變異數性質的音訊輸出信號之第二共變異數矩陣來確定混合規則,其中該信號處理器適於在對角矩陣S x的值為零或小於一閾值時,藉由修改一對角矩陣S x的至少某些對角線值,使得該等值大於或等於該閾值來確定混合規則,其中該對角矩陣取決於第一共變異數矩陣。 [15] 如申請專利範圍第14項所述之裝置,其中該信號處理器被配置成修改對角矩陣S x的至少某些對角線值,其中,且其中,其中C x是第一共變異數矩陣,其中S x是對角矩陣,其中U x是一第二矩陣,是一第三轉置矩陣,且其中是第五矩陣K x的一第四轉置矩陣,且其中V x及U x是單位矩陣。 [16] 如申請專利範圍第14項所述之裝置,其中該信號處理器適於藉由對二或多個音訊輸入通道中的至少二者應用混合矩陣以獲得一中間信號及藉由將一殘差信號r加入該中間信號以獲得音訊輸出信號來產生音訊輸出信號。 [17] 如申請專利範圍第14項所述之裝置,其中該信號處理器適於基於一對角增益矩陣G及一中間矩陣來確定混合矩陣,使得,其中對角增益矩陣具有以下值: 其中其中M’是混合矩陣,其中G是對角增益矩陣,其中C y是第二共變異數矩陣,且其中是中間矩陣的一第五轉置矩陣。 [18] 如申請專利範圍第1項所述之裝置,其中該信號處理器包含:一混合矩陣公式化模组,用以基於第一共變異數性質來產生一混合矩陣作為混合規則,及一混合矩陣應用模組,用以對音訊輸入信號應用混合矩陣,以產生音訊輸出信號。 [19] 如申請專利範圍第18項所述之裝置,其中該提供者包含一共變異數矩陣分析模組,其用以提供音訊輸入信號之輸入共變異數性質,以獲得一分析結果作為第一共變異數性質,且其中該混合矩陣公式模組適於基於該分析結果來產生混合矩陣。 [20] 如申請專利範圍第18項所述之裝置,其中該混合矩陣公式模組適於基於一誤差標準來產生混合矩陣。 [21] 如申請專利範圍第18項所述之裝置,其中該信號處理器進一步包含一空間資料確定模組,該空間資料確定模組用以確定包含環繞聲空間資料、通道間相關性資料或音訊信號位準資料的配置資訊資料,且其中該混合矩陣公式模組適於基於該配置資訊資料來產生混合矩陣。 [22] 如申請專利範圍第18項所述之裝置,其中該信號處理器進一步包含一目標共變異數矩陣公式模組,其用以基於該分析結果來產生一目標共變異數矩陣,且其中該混合矩陣公式模組適於基於該目標共變異數矩陣來產生一混合矩陣。 [23] 如申請專利範圍第22項所述之裝置,其中該目標共變異數矩陣公式模組被配置成基於一揚聲器配置來產生目標共變異數矩陣。 [24] 如申請專利範圍第18項所述之裝置,其中該信號處理器進一步包含一增強模組,其用以基於輸入通道間相關性資料來獲得不同於輸入通道間相關性資料的輸出通道間相關性資料,且其中該混合矩陣公式模組適於基於輸出通道間相關性資料來產生混合矩陣。 [25] 一種用以由具有二或多個音訊輸入通道的一音訊輸入信號產生具有二或多個音訊輸出通道的一音訊輸出信號之方法,其包含以下步驟:提供該音訊輸入信號之第一共變異數性質,及藉由對二或多個音訊輸入通道中之至少二者應用一混合規則來產生該音訊輸出信號,其中該混合規則是基於該音訊輸入信號之第一共變異數性質及基於不同於該第一共變異數性質的該音訊輸出信號之第二共變異數性質來確定的。 [26] 一種電腦程式,當在一電腦或處理器上執行時,用以實施如申請專利範圍第25項所述之方法。
类似技术:
公开号 | 公开日 | 专利标题 TWI489447B|2015-06-21|用以產生音訊輸出信號之裝置與方法以及相關電腦程式 US10469978B2|2019-11-05|Audio signal processing method and device US9093063B2|2015-07-28|Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information US8515759B2|2013-08-20|Apparatus and method for synthesizing an output signal US9014377B2|2015-04-21|Multichannel surround format conversion and generalized upmix WO2019086757A1|2019-05-09|Determination of targeted spatial audio parameters and associated spatial audio playback EP2863658A1|2015-04-22|Method and device for processing audio signal JP2017535153A|2017-11-24|オーディオ・エンコーダおよびデコーダ US20210176579A1|2021-06-10|Spatial Audio Parameters and Associated Spatial Audio Playback KR20210102924A|2021-08-20|낮은 차수, 중간 차수 및 높은 차수 컴포넌트 생성기를 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램 TWI751457B|2022-01-01|使用直流分量補償用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式 JP2020110007A|2020-07-16|パラメトリック・バイノーラル出力システムおよび方法のための頭部追跡 BR112014003663B1|2021-12-21|Matrizes de mixagem ideal e uso de descorrelacionadores no processamento de áudio espacial
同族专利:
公开号 | 公开日 CN103765507B|2016-01-20| TWI489447B|2015-06-21| EP2617031A1|2013-07-24| ES2499640T3|2014-09-29| CN103765507A|2014-04-30| BR112014003663A2|2020-10-27| CA2843820C|2016-09-27| US10748516B2|2020-08-18| RU2631023C2|2017-09-15| RU2014110030A|2015-09-27| PL2617031T3|2015-01-30| JP2014526065A|2014-10-02| EP2560161A1|2013-02-20| US10339908B2|2019-07-02| KR20140047731A|2014-04-22| AR087564A1|2014-04-03| HK1187731A1|2014-04-11| CA2843820A1|2013-02-21| US20190251938A1|2019-08-15| US20200372884A1|2020-11-26| KR101633441B1|2016-07-08| AU2012296895A1|2014-02-27| WO2013024085A1|2013-02-21| EP2617031B1|2014-07-23| JP5846460B2|2016-01-20| AU2012296895B2|2015-07-16| US20140233762A1|2014-08-21| MX2014001731A|2014-03-27|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题 CN107040861A|2013-07-22|2017-08-11|弗朗霍夫应用科学研究促进协会|将输入声道配置的多个输入声道映射至输出声道配置的输出声道的方法和信号处理单元|JP4298466B2|2003-10-30|2009-07-22|日本電信電話株式会社|収音方法、装置、プログラム、および記録媒体| SE0402652D0|2004-11-02|2004-11-02|Coding Tech Ab|Methods for improved performance of prediction based multi- channel reconstruction| WO2006103584A1|2005-03-30|2006-10-05|Koninklijke Philips Electronics N.V.|Multi-channel audio coding| US8126152B2|2006-03-28|2012-02-28|Telefonaktiebolaget L M Ericsson |Method and arrangement for a decoder for multi-channel surround sound| CN101553865B|2006-12-07|2012-01-25|Lg电子株式会社|用于处理音频信号的方法和装置| CN101542597B|2007-02-14|2013-02-27|Lg电子株式会社|用于编码和解码基于对象的音频信号的方法和装置| BRPI0802614A2|2007-02-14|2011-08-30|Lg Electronics Inc|métodos e aparelhos para codificação e decodificação de sinais de áudio baseados em objeto| BRPI0809760B1|2007-04-26|2020-12-01|Dolby International Ab|aparelho e método para sintetizar um sinal de saída| JP5883561B2|2007-10-17|2016-03-15|フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ|アップミックスを使用した音声符号器| US8315396B2|2008-07-17|2012-11-20|Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.|Apparatus and method for generating audio output signals using object based metadata| KR20110049863A|2008-08-14|2011-05-12|돌비 레버러토리즈 라이쎈싱 코오포레이션|오디오 신호 트랜스포맷팅| KR20100111499A|2009-04-07|2010-10-15|삼성전자주식회사|목적음 추출 장치 및 방법| WO2011039195A1|2009-09-29|2011-04-07|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value| TWI396186B|2009-11-12|2013-05-11|Nat Cheng Kong University|基於盲訊號分離語音增強技術之遠距離雜訊語音辨識| WO2010086462A2|2010-05-04|2010-08-05|Phonak Ag|Methods for operating a hearing device as well as hearing devices|RU2014133903A|2012-01-19|2016-03-20|Конинклейке Филипс Н.В.|Пространственные рендеризация и кодирование аудиосигнала| JP5930441B2|2012-02-14|2016-06-08|ホアウェイ・テクノロジーズ・カンパニー・リミテッド|マルチチャネルオーディオ信号の適応ダウン及びアップミキシングを実行するための方法及び装置| EP2688066A1|2012-07-16|2014-01-22|Thomson Licensing|Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction| US9466305B2|2013-05-29|2016-10-11|Qualcomm Incorporated|Performing positional analysis to code spherical harmonic coefficients| US9716959B2|2013-05-29|2017-07-25|Qualcomm Incorporated|Compensating for error in decomposed representations of sound fields| KR102161169B1|2013-07-05|2020-09-29|한국전자통신연구원|오디오 신호 처리 방법 및 장치| EP2830045A1|2013-07-22|2015-01-28|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Concept for audio encoding and decoding for audio channels and audio objects| EP2830050A1|2013-07-22|2015-01-28|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Apparatus and method for enhanced spatial audio object coding| EP2830049A1|2013-07-22|2015-01-28|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Apparatus and method for efficient object metadata coding| EP2866227A1|2013-10-22|2015-04-29|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder| US9922656B2|2014-01-30|2018-03-20|Qualcomm Incorporated|Transitioning of ambient higher-order ambisonic coefficients| US9489955B2|2014-01-30|2016-11-08|Qualcomm Incorporated|Indicating frame parameter reusability for coding vectors| US9620137B2|2014-05-16|2017-04-11|Qualcomm Incorporated|Determining between scalar and vector quantization in higher order ambisonic coefficients| US9852737B2|2014-05-16|2017-12-26|Qualcomm Incorporated|Coding vectors decomposed from higher-order ambisonics audio signals| US10770087B2|2014-05-16|2020-09-08|Qualcomm Incorporated|Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals| US9747910B2|2014-09-26|2017-08-29|Qualcomm Incorporated|Switching between predictive and non-predictive quantization techniques in a higher order ambisonicsframework| US20160171987A1|2014-12-16|2016-06-16|Psyx Research, Inc.|System and method for compressed audio enhancement| US9712936B2|2015-02-03|2017-07-18|Qualcomm Incorporated|Coding higher-order ambisonic audio data with motion stabilization| WO2016141023A1|2015-03-03|2016-09-09|Dolby Laboratories Licensing Corporation|Enhancement of spatial audio signals by modulated decorrelation| EP3065422B8|2015-03-04|2019-06-12|Starkey Laboratories, Inc.|Techniques for increasing processing capability in hear aids| US10448188B2|2015-09-30|2019-10-15|Dolby Laboratories Licensing Corporation|Method and apparatus for generating 3D audio content from two-channel stereo content| CN112235695A|2016-01-18|2021-01-15|云加速360公司|用于音频再现的子带空间和串扰消除| US10225657B2|2016-01-18|2019-03-05|Boomcloud 360, Inc.|Subband spatial and crosstalk cancellation for audio reproduction| BR112018014724B1|2016-01-19|2020-11-24|Boomcloud 360, Inc|Metodo, sistema de processamento de audio e midia legivel por computador nao transitoria configurada para armazenar o metodo| US11234072B2|2016-02-18|2022-01-25|Dolby Laboratories Licensing Corporation|Processing of microphone signals for spatial playback| WO2017143003A1|2016-02-18|2017-08-24|Dolby Laboratories Licensing Corporation|Processing of microphone signals for spatial playback| US10923132B2|2016-02-19|2021-02-16|Dolby Laboratories Licensing Corporation|Diffusivity based sound processing method and apparatus| US9820073B1|2017-05-10|2017-11-14|Tls Corp.|Extracting a common signal from multiple audio signals| US10313820B2|2017-07-11|2019-06-04|Boomcloud 360, Inc.|Sub-band spatial audio enhancement| GB201718341D0|2017-11-06|2017-12-20|Nokia Technologies Oy|Determination of targeted spatial audio parameters and associated spatial audio playback| US10764704B2|2018-03-22|2020-09-01|Boomcloud 360, Inc.|Multi-channel subband spatial processing for loudspeakers| GB2572420A|2018-03-29|2019-10-02|Nokia Technologies Oy|Spatial sound rendering| GB2572650A|2018-04-06|2019-10-09|Nokia Technologies Oy|Spatial audio parameters and associated spatial audio playback| GB2574239A|2018-05-31|2019-12-04|Nokia Technologies Oy|Signalling of spatial audio parameters| US10841728B1|2019-10-10|2020-11-17|Boomcloud 360, Inc.|Multi-channel crosstalk processing|
法律状态:
优先权:
[返回顶部]
申请号 | 申请日 | 专利标题 US201161524647P| true| 2011-08-17|2011-08-17|| EP12156351A|EP2560161A1|2011-08-17|2012-02-21|Optimal mixing matrices and usage of decorrelators in spatial audio processing| 相关专利
Sulfonates, polymers, resist compositions and patterning process
Washing machine
Washing machine
Device for fixture finishing and tension adjusting of membrane
Structure for Equipping Band in a Plane Cathode Ray Tube
Process for preparation of 7 alpha-carboxyl 9, 11-epoxy steroids and intermediates useful therein an
国家/地区
|